2015/12/20

醫療科技的最前線:Kavli HUMAN Project

之前介紹的「人類行動庫計畫」(Human Motion Project),旨在收集跟人行動有關的資料,以及相對應的分析技術;最近,又多了一個野心更大的計畫:Kavli HUMAN Project,希望整合從「生物學」、「行為」到「環境」層次的資料,做大數據的分析,主要的應用還是聚焦在健康和行為層次。



Kavli HUMAN Project: The Next Frontier of Medicine from Kavli HUMAN Project on Vimeo.

2015/12/04

[Data Analytics] R quantmod 的實作應用

最近開始接觸量化交易(quant trading),由於這個領域已經發展了好幾年,所以已經有不少現成的套件可以用,尤其是今年稍早 R 的 TTR 套件更新,大多數的技術指標都已經可以直接用函數呼叫來計算,搭配 quantmod 套件,技術分析變成很容易就上手的事情。

以下示範幾個基本的步驟,然後來談談後續進階應用的可能性。

工欲善其事,必先利其器,讓我們從工具的準備開始。

1. 安裝 R 軟體,以及基本設定,請參考 Person Lin 詳盡的圖說
2. 安裝套件 quantmod 與 TTR,可以參考前面說明的後半部,或是在 R console 裡輸入:
    〉install.packages(TTR)
    〉install.packages(quantmod)
過程中還會要求安裝其他套件,就一併安裝了吧。

準備工作完成,準備開始測試。

1. 載入工作所需套件

    〉library(quantmod)

2. 取得歷史資料
從 yahoo finance 資料庫取得台灣50(0050)的歷史資料,儲存在變數 tw0050。裡面包含「開盤價」(Open)、「最高價」(High)、「最低價」(Low)、「收盤價」(Close)、「成交量」(Volume),以及「調整後收盤價」(Adjusted)。

    〉tw0050 <- getSymbols("0050.TW", auto.assign=F) 


3. 簡易繪圖
接下來畫個台灣50的收盤價趨勢圖,就是最上面的那張:
    〉plot(Cl(tw0050),type="l")


Cl(tw0050) 會取出「收盤價」,而 plot 是 R 的基本繪圖函數,type="l" 是指定畫出「折線圖」。可以看得出來,R 的基本繪圖實在不怎麼好看。

4. 專業繪圖
quantmod 在視覺化上也比基本繪圖好很多, 例如:
    〉chartSeries(tw0050, theme="white")
    〉addBBands()
    〉addMACD()

可以得到下圖:

基本上跟一般的看盤軟體已經很接近了。

以上是最基本的使用,其它的應用,可以參考更詳盡的教學,或是 TTR / quantmod 套件的說明文件。

有了基本的資料之後,我們可以用來作什麼?當然,我們可以跟電視上的股票老師一樣,畫一堆線圖,做技術分析,然後作為交易的依據。

但是,人的想像力是無限的,同樣的資料當然也可以拿來作其它用途。
例如,對音樂家來說,股價趨勢可以是音符;對心理諮商師來說,股價變化可以是生意的指標;對零售商來說,股價可能反應了某些產品需求的消長;對行銷人員來說,股價可以暗示溝通訴求的變化。
即便是拿這些資料來做市場交易,也可有不同的用法,畢竟「問對問題」,是一切創新的基礎。以金融商品的預測來說,「價格區間」當然是可以預報的標的,但是通常這種預測的結果,受限於資料的特性,一般都不會太準確。以「決策輔助」的角度來看,「交易」這個行為,本身就包含了很多的決策過程,而量化分析真的可以發揮功效的地方,其實是在於改善整個交易流程中眾多小決策的品質,因此預報的標的應該不是「價格」,而是人應該採取的「行動」。至於其中的細節,由於牽涉到工作的內容,就不多說了。

2015/11/14

幾個新的大數據團隊

前幾天參加了 AppWorks Demo Day #11,出場的團隊當中,有三個是我個人比較喜歡的大數據應用:

SEROSE

www.serose.com

這個我今年最愛的團隊做的是「智能沙袋」,由一群武術愛好者組成。如果有聽過「智能籃球」、NBA的智能球場,或是德國國家足球隊利用大數據取得上次的世界盃冠軍,那麼「智能沙袋」的概念應該就很容易理解:透過器材和場地的嵌入感應器,分析後的數據可以立即回饋給受訓練的人,達到更好的訓練效果。這個概念可以用在籃球跟足球,當然也可以用在其他的運動,像是拳擊、武術等等,而這方面後續更有軍用的價值。

SkyREC

www.skyrec.cc

了解你的消費者再你的店裡做些什麼、想些什麼,對任何商家來說都是很重要的。在網路上,Google Analytics 提供了很多的行為記錄,可供店家分析,然而實體商店怎麼辦?
SkyREC 的解決方案,利用攝影機與 WIFI 來掌握客戶在商店裡的購物行為,再藉由大數據分析,來理解消費者的購物行為。這種應用之前就有看過,但是比較屬於「營運分析」(operation analytics)領域的學術研究,主要是跨國的大型零售集團在運用。SkyREC 把相同的概念系統化與模組化,可以快速的部屬在零售點,一週後就可以有分析結果,讓零售業主參考調整動線和空間配置。這是個把最前端的應用加以標準化、規模化的好物。

眾達智慧工廠

這個團隊是前友達的員工出來創業的,聽起來像是電腦整合生產(Computer Integrated Manufacture, CIM)部門的。多年的實戰經驗,讓他們可以快速的切入工業4.0的市場。他們做的是可以客製化並且整合到各種機台的感測器裝置,協助工廠最佳化生產流程。


從上面的例子可以看到,能快速發揮價值的大數據商業模式,主要是整合到企業日常營運流程之中的。原因很簡單,大數據帶來的「智能」,絕大多數都不是廣告裡塑造的那種「做出神準的判斷」,而是一些過去只能亂猜(~10%機會猜中)的情形,透過資料累積而產生的「經驗」,可以大幅的縮小亂猜的範圍(~50%-70%機會猜中)。如果這些決策每天發生很多次,那麼這種正確率提昇,為企業所產生的商業價值,就會非常可觀。


全部團隊簡介:http://appworks.tw/dd11/

2015/10/22

行動健康應用的例子:腦震盪門診追蹤

[GitHub] Behavioral Intervention through Mobile Devices: a framework and an example

這是去年跟朋友合作的計畫,目前 prototype 已經在驗證階段,所以可以來介紹一下。

過去曾經寫過「行為干預科技」(Behavioral Intervention Technology, BIT)的介紹,現今的行動應用和穿戴式設備有很多都是以「健康」為訴求,但是大多是以「記錄」和「媒合」為主,直接由醫護人員提供的比較少。

這個專案的由來,是一位神經外科醫師發現,腦震盪的門診病患有很多是年輕人,而他們都有智慧型手機,所以他想是不是能把傳統的衛教文宣移植成行動應用,進而把一大串靜態的「須知」轉換成「依據病患症狀而提供的客製化建議」。當然,醫師同時也可以主動得知病患在門診後的即時狀況,有助於後續病患回診時做更精確的診斷。

 GitHub上包含了行動端和主機端的原始碼,安裝和使用說明。程式開發是採用 full stack Javascript,行動端使用 Ionic framework,主機端則是 MEAN.js。本專案原始碼授權都是 MIT license,歡迎自由取用和修改;但是症狀判斷和提供建議的內容和邏輯,是屬於長庚大學行為科學研究所的智慧財產,要使用或修改需取得該單位的授權

嚴格說來這個 prototype 設計的並不夠細緻,主機端的安全認證機制其實沒有做得很嚴謹。一方面系統開發實非本人專長,我也是邊做邊學;另一方面,這個系統主要是作為資訊收集的工具,真正的應用重點,在於後續如何用收集到的症狀資訊協助醫師診斷,以及設計一個理想的 BIT 應用開發流程,而這些才是行動健康應用的核心能力。


在開發的過程中,遇到一個個人覺得頗值得思考的問題:健康應用的「使用者」,究竟是「醫護人員」,是「病患」,還是其他人?這在「使用者中心」設計當道的今日,增加了一些討論的空間。

畢竟「健康」是個抽象的概念,每個人願意為了這個抽象概念承擔的「麻煩」都不盡相同。其實不難想像,大多數的人對於健康其實不是那麼積極,甚至希望以生活享受為主,「反正病了再吞顆仙丹治病就好」,然而這並非醫護人員想要的;而對健康積極的人,常常會自己累積許多健康知識,但是這些知識不見得與醫護人員的認知相同,個人無從判斷誰的知識比較「對」,但是這種認知差距,常常也會造成系統設計時的困難。

這次專案,委託開發的是醫護人員,他們希望病患可以鉅細靡遺的紀錄各種生活瑣事,甚至把日記寫在行動應用裡,這當然關係到後續資料分析的豐富性,但是卻不見得符合一般人使用行動應用的習慣。在這個專案裡,我們當然是以委託人的意見為主,但是如果要讓使用者真的如實的紀錄症狀,個人覺得在設計上還有一些可以思考的空間。

我相信在醫療這麼龐大的生態系裡,每個關係人都可能是「使用者」,而每個使用者想要的都不一樣,需要有比較強有力的整合者出面來主導類似系統的設計,才能有比較全面的思考。理想上,醫療保險的負責單位,是整個生態系統裡接觸範圍最廣的,而病人的健康和醫護人員的方便,都可以直接轉換成它的商業利益,因此應該是最適當的整合者。不過台灣有健保制度在,這個市場的發展也就相對有限了。


2015/10/21

[摘譯] 我該從事哪種大數據工作?

[原文] Where Should I Work In Big Data? | Big Cloud Recruitment

[摘譯]
大數據相關的人力需求在很多產業都已經開始顯現。很都求職者都想投入相關產業,但是不知道該從事大數據的哪個環節,也徬徨於究竟該選擇新創公司,還是加入已有規模的大企業。下面幾個問題,可以協助思考如何縮小尋找的範圍,對大多數產業都適用:

產品

你的產品吸引人嗎?能改變世界嗎?在新創企業,產品就是一切,它必須好到能撐過12輪的融資。在成熟的大企業裡,產品通常都被驗證跟測試過,但相對的也比較沒有改變或修改的空間,而工作也大多在於拓展現有的市場;如果你想要有機會發揮更多創造力,那麼新創企業會是比較好的選擇。

領導

新創企業提供了更多個人成長的空間,但是作為後加入者,務必要確認領導團隊有足夠的能力把公司跟產品賣出去,並且持續的獲得融資,因為這決定了你未來的薪水。而在成熟的大公司,重點在於公司拓展的野心:如果公司追求在這個領域持續成長,那麼才有立功升遷的機會,否則追求安穩很可能也代表著成長的停滯。無論在哪種形態的公司,理想上你的主管在技術上都要比你有更深的知識,否則何來的成長可言?


團隊

對於已經經營有年的團隊,要事先打聽他們的企業文化應該不難:有的是階級紀律嚴明,有的可能更像新創企業,有的可能聚焦在公司成長,有的則是專攻利基市場。而企業的文化決定了什麼樣的人會在那裡工作,所以最好先確定那樣的環境是否適合你。新創企業則傾向於網羅比較多元化性格的人群,有人專們追求挑戰,也有人指想交差了事,所以團隊的相處經驗可能會更「有趣」一點。

流程

創造力和規矩行事通常是互相衝突的,所以如果你對「標準工作流程」很在意,那麼新創團隊可能不是你的好去處。相對的,成熟的企業會有比較多的經驗和固定流程。

風險

大數據是個全新的產業,不要期待現有企業的 CXO(執行長、營運長、行銷長....)會真的很清楚大數據到底是什麼,因此也有很多不懂裝懂的人也在搶食這塊餅。所以,在一家已經有現成客戶的公司工作,風險會低很多;但是相對的,新創企業會有相對較高的潛在回報。


顯而易見的,究竟該加入哪種企業,主要的差異在於「個人特質」,而非技術能力。


[譯按]
原作者是大數據招聘 Big Cloud 的創辦人,所以常常面對求職者詢問這類問題。


2015/10/15

英文流行音樂裡的天氣

只能說,真的是什麼都可以拿來作文本分析。

[原文]
 'Here comes the sun': Does pop music have a 'rhythm of the rain?'

[研究論文]
 'Is there a rhythm of the rain? An analysis of weather in popular music' Brown, S., Aplin, K.L., Jenkins, K., Mander, S., Walsh, C. and Williams, P. (2015) Weather DOI: 10.1002/wea.2464

英國幾所大學的聯合研究(Southampton, Oxford, Manchester, Newcastle Reading),分析了750首與天氣有關的英文流行歌曲,其中有不少有趣的發現。

  • 「太陽」(sun)和「雨」(rain)是最常出現的天氣,而「暴風雪」(blizzard)是最少見的。
  • 音樂創作者常常用天氣來表達情緒,也因此一首歌裡通常包含不只一種天氣現象,而包含最多天氣現象的歌是 Cobb and Buie 的 Stormy
  • 在 750 首歌的 900 多位創作者中,最常在歌曲裡使用天氣的前三名分別是:Bob Dylan, John LennonPaul McCartney。(好像都是同時代的人)
  • 與天氣有關的歌曲,有7% 入選 Rolling Stone 2011 年的「史上最棒的500首歌」,相當於佔據了10% 的名單。
  • 對照詞曲創作的時間跟當時的天氣,研究發現與「壞天氣」有關的歌曲數量,在劇烈天氣較常發生的 1950-70 年,顯著的多於相對天氣較好的 1970-90年代。

最近在分析歷史氣象資料,來找找看是不是有完整的中文流行音樂歌詞資料庫,說不定也有好玩的東西在裡面。

Read more at: http://phys.org/news/2015-07-sun-music-rhythm.html#jCp

[摘譯]七種常見對大數據的「誤讀」

[原文] 7 Common Biases That Skew Big Data Results - InformationWeek

[摘譯]
「資料驅動的決策流程」(data-driven decision making)目前普遍被認為是個聰明的做法, 但是有時候太過依賴資料,一些「看似真的卻不見得」的情況,反而會導致蒙受損失或增加意外的風險。這些資料分析結果的誤讀,可能是來自於資料本身的偏差,也可能是收集或分析資料的人造成的偏差。

常見的七種偏誤有:

確認偏誤(Confirmation Bias)

確認偏誤是最常見的人類的認知偏誤。當我們有預設的立場,有意或無意的想要證實某種假設或意見時,最常發生這種偏誤:我們會因為「感覺對了」,而主動去忽略某些「不支持這個看法」的細節,甚至想盡辦法讓資料支持原本的假設。

選擇性偏誤(Selection Bias

資料的選擇過程往往不是完全隨機的,因此分析結果可以被延伸推論的程度,往往受到「怎麼選擇資料」的影響。尤其在資料爆炸的今日,如何在大數據裡選擇適當的、有代表性的部份來分析,對於分析的結果有很大的影響。

離群值(Outliers

資料當中難免會有一些超出一般範圍的極端值,如果沒有清理資料而只直接看平均的話,這些離群的極端值會影響平均數,進而導致誤判。離群值或異常值的判定與篩選,在大量自動收集的資料裡特別需要注意。

辛普森悖論(Simpson’s Paradox)

當資料包含了不同性質的群體時,有時候在個別群體裡非常明顯的趨勢或現象,在把所有群體合併之後反而看不到,甚至呈現相反的狀況。辛普森悖論在「大數據」的時代尤其容易發生,它基本上可以解釋我們平常看到的醫學研究結果之所以常常會互相矛盾,也可以解釋為什麼很多看似設計精妙的行銷手法到頭來卻全然沒有效果。

過適(Over Fitting and Under Fitting)

有時候我們為了能解釋所有收集到的資料,而使用了太過複雜的理論,導致連不必要的雜訊也都解釋進去了,反而失去了類推到其他情況的能力。而有時候恰好相反,我們使用了過於簡化的理論,試圖能解釋一切,但資料裡卻處處有例外。「過適」在使用高維度非線性統計模型時特別容易發生。

混淆變項(Confounding Variables

有時候我們觀察到兩件事情A跟B之間的關聯性並不真切,因為背後其實是另外一個現象C同時造成了A和B,而這個C就是所謂的混淆變項。有時候資料是分別由不同組織收集然後合併在一起,分析的時候很容易被混淆變項所干擾。舉例來說,有家信用卡公司在三年內客戶的信用分數幾乎翻倍,而其他公司基本上沒有變化,但結果發現這家公司是由於三年內進行了大量的併購活動,才造成客戶信用分數的成長。

並非所有的事情都是常態分布(Non-normality:  The Bell Does Not Toll)

很多常用的統計工具(例如t-test),都假設資料是常態分布,但現實中的資料不見得都符合這個假設。遇到非常態分佈的資料,卻硬要套上鐘形曲線,分析的結果很可能導致錯誤的決策。


[譯按]
上述的七個現象,前兩個比較屬於人心智上常見的認知謬誤,而後五個比較屬於統計和實驗設計的專業,大概所有「資料密集」的專業領域都會遇到。在商業上,後面五項通常可以由專業團隊來把關,但是作為決策者就要自己特別注意前面兩項了。

現實中有時候「認知謬誤」也是不得不然。當老闆語重心長的告訴你:「資料分析出來的結果,應該是支持我的提案的,對不對?」明白人都知道,是該犯一下選擇性偏誤來造成確認偏誤的時候了。當然,作為資料科學家,有時候也要有說不的骨氣。

2015/06/30

[摘譯] 讓趨勢預測落空的四種力量

[原文] The four global forces breaking all the trends | McKinsey & Company

[摘譯]
這篇文章是 Richard Dobbs, James Manyika, Jonathan Woetzel 的新書 No Ordinary Disruption 的摘錄,這本書介紹在全球經濟運作方式大翻新的今天,四個改變世界的重大趨勢,並且建議領導者該如何應應這些變化。

一、不只是上海:都市化的年代
除了經濟發展的重心由歐美成熟市場轉移到亞洲、拉丁美洲和中東之外,人口往都市集中是一個非常明顯的現象:過去30 年,世界的「都市人口」平均每年增加6500萬人,大抵是每年增加七個芝加哥的規模。全球 GDP 的50%將會來自於新興市場的 440 個都市(2010年是 33%),其中95%是大多數人聽都沒聽過的中小型城市。這個現象的背後,是 6200萬人在過去二十年脫離貧窮線,每年成長 150% 的消費能力。

二、冰山的一角:不斷加速的科技創新
世界對新科技的適應速度越來越快:收音機從發明到有5000萬人使用,花了38年的時間;相較之下,電視花了13年,iPod 花了4年,網際網路花了3年,facebook 1年,twitter 9個月。而新科技也讓更多新的商業模式變成可能,目前幾個可能發生顛覆的主要科技有:行動網路(mobile internet)、知識型工作的自動化(automation of knowledge work),和物聯網(internet of things)。

三、不一樣的老:高齡化世界的挑戰
日本跟俄羅斯過去幾年的人口減少,證明已開發國家的人口老化已經是進行式了,但事情還沒完:2013年,全球 60% 的地區人口替代率已經低於 2.1(每個婦女生 2.1個小孩,恰好可以維持人口的平衡),未來高齡化、人口減少、生產力不足,將會是全球各地共同要面對的問題。2014年全球GDP 的成長降到 1.8,預計將再也不會提高,而銀髮勞動力(55歲以上還沒退休的人)佔勞動人口的比例,將從 2010 年的 14% 提高到 2030 年的 22%。這對政府財政和社會各種組織的運作方式,都將造成極大的挑戰。

四、貿易、人、資金與資料:更緊密的全球連結
資金、人與資訊的全球「流動」,是第四個顛覆的力量。密切連結的國家,享有較高的 GDP 成長,而全球貿易的中樞,也由歐美國家移轉到亞洲。


上述的四種力量,正一點一滴的顛覆著我們熟悉的世界運作方式,任何的趨勢預測,如果只是根據既有的經驗向外延伸,那麼將會在這些力量的影響下,失去參考的價值。

同時,這也代表了全新的機會,如果能掌握這個經濟型態的轉變,做好準備,也將會是成功的契機。

2015/06/21

新工作潮:20年前趨勢預測的驗證

最近在整理書架時,隨手翻到這本 1995 年出版的書,發現跟今年的一些「現況報告」相當吻合,覺得相當有趣。

這本20年前出版的「新工作潮」,講的是「未來的工作」,如同書封面上的敘述:
不久的將來,世界有一半的人每天要工作十二小時,另一半的人,會失業。「一個蘿蔔一個坑」將成神話,特遣員工、臨時工、契約工將全面佔領市面,這將成為一個職位虛化、消失的「美麗」新世界……。
前陣子網路女王 Mary Meeker 2015 年的報告裡,恰好也指出「80、90 後愛錢愛自由」這件事:
雖然現在 00 後在網絡上的話題度和活躍度已經直追曾經的 80、90 後,但是後兩者在今年已經成為勞動力人數最多的一代人(美國)。在對他們的統計調研中,“互聯網女皇”的報告發現了他們在工作中的一些共通性。
在工作​​福利上,千禧一代最看重的三項依次是職業培訓和發展、更靈活的工作時間,以及現金獎勵。
在喜歡的工作類型中,他們對於工作的靈活性要求比較高,偏愛科技類工作。其中 20% 的人喜歡熬夜,又有近 38% 的人在從事自由職業。
其實書裡還有一些洞見現在看來也相當寫實。例如,作者預言派遣人力會大量取代傳統職缺,預言未來有生產力的組織會走向扁平化和彈性化,這都是已經發生的事情。又例如,作者預測這些現象背後的趨力,一方面是來自於傳統職場優勢者的佔盡便宜又不願意交棒,這跟近年來台灣社會的某些抱怨蠻像的。

最後,作者20年前對未來的建議是:
未來的熱門行業不是電子業、基因工程或國際貿易,而是所有的行業,因為未來成功的定義不是製造什麼新產品,而是要想出新的方法發揮個人的生產力。
雖然「成功的產品」似乎一點也沒有退流行,但整個描述跟現在熱門的「互聯網思維」、「自雇型經濟」、「共享經濟」,似乎也有不謀而合之處。

或許有空可以再翻翻一些舊書,看看還有什麼有趣的趨勢預測可以驗證。

[摘譯] 你應該避免去上的資料科學課程

[原文] Data Science Courses to Avoid - Data Science Central

[摘譯]
隨著「資料科學」日漸熱門,網路上也出現了很多的資料科學的相關課程,Mirko Krivanek 建議,有些課程其實並無助於對「資料科學」的理解或熟練,應該避免在這些課程上花時間。

作者舉了一些「偽資料科學」的例子,像是標榜:

  • 學習 R 入門,資料操弄和視覺化,建立資料科學的基礎知識。
  • 撰寫你的第一個 R 程式,學習 vectors, matrices, data frames 和 lists。(這些是 R 的資料結構,故不另作翻譯)
  • 資料科學的七門課: t 檢定、變異數分析、迴歸以及其他(共26小時)。

這些「偽資料科學」課程通常是包裝過的傳統基礎統計學,對於「資料科學」來說雖然是必要基礎,但其實不必花太多時間去理解細節。雖然目前「資料科學」有很多種詮釋,但是資料科學用到的很多統計理論,在過去十年間都曾經翻修過,甚至很多理論還為了處理「大量」資料而重新定義過。如果要接觸新一代的理論基礎,作者推薦 Vincent Granville 的新書 Data Science 2.0,或是 Data Science Research Lab 上的資源。

另外,作者認為現代的資料科學也不太需要「線性代數」,所以如果你在課程介紹裡看到「矩陣」,那也是個應該跳過這門課的信號。

很多統計學者宣稱,資料科學家作的事情,本質上就是統計學,但是作者認為解決問題的方法很多,資料科學只是對有些問題的解決方案和統計學家相同而已。大多數的時候,資料科學家尋求的是直覺、簡單,讓工程師和商業人事容易理解的解決方案,而不是列出一百種模型讓別人選擇。

資料科學的解決方案,會把對複雜度的追求放在實際執行需要的領域專業知識上,放在如何選擇正確的衡量標準上,並且強調資料架構(以及收集過程)的設計上。

[譯按]
這篇簡單的說,就是作者建議避免去上「包裝成資料科學的傳統統計課程」,姑且不論字裡行間透露出作者跟統計學家的往日恩怨,個人覺得作者想強調的是,即便統計學是資料科學的根源,但是資料科學是更「對其它領域友善」的:方便工程師整合進系統,也方便商務人事理解背後的概念。

不過就像作者指出的,目前「資料科學」有很多種詮釋,所以不妨當做一種觀點來參考。



2015/06/06

「物」從來不是物聯網的重點

本週 Computex 的活動很多,聽到了很多不錯的洞察,值得記下來。

Cees Links 是 GreenPeak 的創辦人與 CEO,他提到:「物」從來不是物聯網的重點,物聯網提供的價值,是這個「網」形成之後,可以提供的服務。

他舉自己手上的 fitbit 為例:運動手環的價值,不在於它可以記錄什麼、多便宜、多漂亮、多省電、有多少功能,而是我手機裡有一個搭配的個人健康教練 app,它可以提醒我、調整我的生活型態,讓我過得比較健康一點。個人健康教練是很貴的,但是運動手環加上 app 讓這件事情變得很容易負擔得起,所以我願意戴上健康手環,以換取「健康教練」的服務。

「智慧家庭」的重點,不是家裡的裝置們、也不是什麼連線、節能的技術。而是智慧家庭的建置,讓每個使用者的家裡有一位虛擬的「管家」,在你忘了關燈、關瓦斯的時候幫你關上,在你忘了鎖門的時候幫你鎖好。現實生活裡能請得起管家的人不多,而智慧家庭讓「管家」的服務變成很多人都負擔得起,所以使用者是為了這個管家的服務,才願意裝上那麼多奇奇怪怪的連線裝置。

目前國內的科技公司都在寄望「物聯網」這個新市場,個人覺得 Cees Links 的這番話,特別值得深思。

2015/05/28

資料科學的幾個商業模式

自從2012年哈佛商業評論發表了一篇名為「資料科學家:21世紀最性感的工作」(Data Scientist: The Sexiest Job of the 21st Century)的文章之後,「資料科學」(Data Science)這個名稱才慢慢的跟「大數據」(Big Data)一起被廣泛的討論。而直到最近,才有越來越多的企業開始徵求「資料科學家」。

朱敬一教授日前的一篇文章「大數據瞎掰症候群」,點出了大家在面對這種熱門的新名詞的時候,爭先恐後湊熱鬧的現象,其實兩年前西方世界也是類似的狀況(巨資料就像是青少年在談「性」,嗎?),這個現象說穿了,也不外是對一個還在被定義中的新議題,人人都會想表示自己懂,好在塵埃落定之前能佔有一席之地,這是新市場特有的「機會財」。

相對於大數據,data science 直到目前都還算是相對新的話題,所以我也可以來插個嘴,瞎掰一下。由於資料科學是眾多學門裡對資料分析使用比較多的子領域匯集而成,因此每個人也會因為自己的背景而有不同的詮釋。

以下是個人對於目前市場上看到的資料科學的一些商業模式的心得。

借用 wikipedia 的圖來說明,我們可以大致把 data science process 區分成「資料儲存與處理」(1)、「探索式資料分析」(2)、「資料模型與預測分析」(3)、「資料視覺化」(4)四個部分。

傳統的企業管理資訊系統(MIS)介入 (1) 跟 (4) 已經很久了,傳統上是屬於資管系的地盤。雖然隨著90年代以來從 data-mining、business-intelligence 到 big-data 的潮流演變,(2) 跟 (3) 都已經有一些現成可以整合到企業資訊系統裡的各種決策輔助「模組」,但是實際發揮的效用目前都只屬於「雞肋」的程度。主要原因在於,要實際跟企業決策結合,必須要有很深的企業營運 domain know-how,並不是買了一套軟體裝上去就可以用的。

IBM 做的比較像是「顧問」服務,他會派一個 team 進駐到客戶公司數個月,然後再客製化出符合客戶需求的系統。聽起來很合理,但是實際上幾個月通常是不太足以徹底認識一個行業的,也因此這類服務大獲成功的案例並不是很多。

整體來說,企業的 data mining / business intelligence 的案子絕大多數還是在做 data-pre-processing 的苦工,然後有個好聽點的名字叫做 ETL,其實大都只是格式轉換。這並不是說這類資訊系統或供應商的技術或服務能力不到位,而是要做到跟企業本身的商業流程合而為一,難度很高,最大的挑戰在於企業本身營運體系對資訊系統的想法是什麼。


最近可以再媒體上看到,比較具有話題性的資料科學內容,主要是「探索式資料分析」(2)。主要是很多自然、社會、人文學科做量化研究、資料分析的專家,都跑來做 data science 了。這些專家的專長並不是做「產品」,所以就走「製造話題」的路線,現在媒體上大多數和資料科學有關的報導,大抵都是這一類。實際上,這個模式還是可以走「媒體」的商業模式而實現獲利,像是「資料新聞學」(data journalism),不過如果要做得出色,還是得把「資料視覺化」(4) 這件事情做好。


「資料模型與預測分析」(3) 技術門檻比較高,但是因為越來越多商業化的模組出現,讓很多人可以點幾下滑鼠就看到有模有樣的結果,所以也漸漸熱門起來。這個部分目前常常跟資訊系統包在一起販售,但風險是使用的人不見得具備足夠的專業,做出來的結果不見得正確。

我個人比較看好的是 (3),除了個人專長之外,也因為這個部分很容易跟其他的產品、服務結合,但由於在產品本身上面看不到,等於是技術本身「隱形」,所以也就相對容易建立競爭門檻。但是這個路線的難處,在於導入的資料科學家本身必須要有足夠的商業嗅覺,才能迅速的掌握原本的商業模式,再從當中導入新的資料驅動的流程,創造商業價值。

這也是為什麼所有在談「資料科學家」的文章裡,都一再強調 business sense 這件事情。

2015/05/09

多說一種語言,會改變你看世界的觀點

接觸過語言學的人,大概都知道「語言相對性」(Linguistic Relativity)或 Sapir–Whorf 假說,簡單的講,就是一個人使用的語言,會影響他思考的觀點和方式。

這個從古希臘時代就有人提出的想法,1940年代曾有過一段爭論,1980 年代有過很多相關的研究,而最近又再度受到了注目。日前英國 Lancaster University 的 Panos Athanasopoulos 提出了進一步的問題:「如果一個人能說兩種語言,他是不是也會同時有兩種觀點?」

結果是肯定的。以下圖為例,Athanasopoulos 發現德文母語的人會思考「他要去哪裡?」,而英文母語的人會更關心「他經歷的旅程」。但同時說德英雙語的人,會同時思考這兩種觀點。


如果說更全面的觀點事件好事,那看來多學幾種語言真的是不錯的主意。

[參考] Speaking a second language may change how you see the world

2015/04/23

[摘譯] 企業需要「巨資料」的關鍵能力

[原文] Big data: the key skills businesses need - Agenda - by Bernard Marr

[摘譯]
隨著越來越多的企業理解到資料的收集與分析所能帶來的商業利益,與「巨資料」相關的工作機會也越來越多。

趁著這個領域剛形成的時候投入,對未來的職涯發展是個不錯的選擇。那麼要進入這個行業,最關鍵的技能是哪些呢?

分析能力(Analytical Skills)

這大概是最顯而易見的一項,也就是從堆積如山的資料裡頭理出頭緒的能力。分析能力包含了能識別出哪些資料跟所欲理解的問題有關,並且透過詮釋資料來找到答案。這個能力的重點在於,能把企業資料轉換成可以執行的營運計畫。

創造力(Creativity)

對於「企業該如何運用巨資料」這個問題,其實是沒有標準答案的。正因為這是個新興的領域,所以任何關於資料的收集、詮釋、分析,和轉換成獲利的方法,都是新的東西,需要創造力與想像力。事實上,未來企業裡的資料明星,會是可以設計新方法,找出新的運用方式,來解決企業根本還不知道的問題的人。

數學和統計(Mathematics and Statistics)

美好傳統的識數能力,除了傳統的分析方法之外,即便是新興的非結構式資料,處理數字的能力依然會是分析能力的核心。具備精實的數學或統計背景,可以讓企業在資料應用上有更多的突破。

電腦科學(Computer Science)

任何跟大規模資料運用相關的策略,電腦都是主要的執行工具,而企業永遠都需要程式設計師來設計及執行將資料轉換成知識的演算法跟流程。這是一個範圍很廣的技能,包含了很多的子領域,像是機器學習、資料庫、雲端運算等等。

商業技能(Business skills)

理解企業目標,營運流程,以及如何驅動企業的獲利與成長,是非常基本的能力。企業裡的資料科學家,絕對不是離群索居、只負責產生一些數據跟報表而已,而是對企業的商業目標以及各種營運指標都有適當的理解,並且讓決策者能透過資料來掌握企業營運方向。

溝通能力(Communication ability)

資料分析的目的是要跟團隊與決策者分享分析的結果,因此口語跟書面的溝通能力都很重要。要能夠精簡的傳達關鍵訊息,「視覺化」也是溝通能力的一部分,畢竟資料分析的結果如果不能讓共事的人理解,並且改善決策流程、增進獲利,對企業也就沒有太大的效用。

[譯註]
這篇原文的作者 Bernard Marr 是這個領域公認有影響力的專家(在今年初的全球評比裡排名第二),但是其實這類「大數據專家 / 資料科學家應該具備的能力」的文章,這兩年相當常見,內容也都大同小異:就是除了數學、統計和電腦科學的「硬功夫」之外,還要加上商業、溝通、創意等等「軟實力」。

話說回來,不只資料科學家,未來要能在社會上做出一點成績,任誰都得要能軟硬兼備的。


2015/03/22

各文化裡的「重要人物」有什麼不同?

[原文] Computational Anthropology Reveals How the Most Important People in History Vary by Culture

學者用分析網頁重要性的演算法(PageRank),來分析各種語言版本 Wikipedia 裡的「人物」,發現東西方文化裡的「重要人物」有著截然不同的樣貌。

東方文化(日文跟中文)的重要人物都是政治人物或武將,而西方版本的重要人物則是科學家、藝術家和宗教領袖。

英文版的重要人物名單當中有80%不是講英文的人,而中文版裡不是華人的只有極少數。

儘管作者在論文裡所使用的「強度」和「關連性」定義還有討論的空間,但這是使用大量文本資料試圖尋找行為模式的新嘗試,倒也相當有趣。

2015/03/21

[Dev] 無伺服器的雲端服務: AWS Lambda

今天參加了 Amazon Taipei 舉辦的小型 workshop,介紹了新的還在試驗階段的雲端服務 AWS Lambda,覺得這個服務真的簡化了很多應用開發的流程。

無論是行動應用、網路應用、或是單機應用,基本上只要是使用 REST 架構,我們都需要一台伺服器來提供 API 服務。然而佈署一台伺服器是相當麻煩的工作,即便是在雲端的虛擬主機,也要花不少時間。AWS Lambda 提供了一個直接佈署 API 的平台,串連 AWS 的其他服務,等於開發者不必再花時間安裝、設定新主機,讓雲端服務真的 serverless。

雖然這篇看起來像是在打廣告,但是這個服務真的解決了我目前遇到的很多麻煩。我目前都是把 API 利用 node.js 佈署在 EC2 的 Linux server 上,雖然已經很簡單了,但是 AWS Lambda 可以讓我省下設定 EC2 的時間,以及在尚未正式營運前虛擬主機運轉的費用。真是好物~

2015/03/01

不確定的獎勵讓人更有動力?

[原文] Uncertain reward more motivating than sure thing, study finds

早在20世紀初,行為學派的心理學家在「操作制約」系列的研究裡就已經告訴我們,如果要有效率的改變動物的行為,「獎勵的給予要時有時無,懲罰的給予則要每次都有」。

當然,人不是一般動物,日常活動也比單純的「行為」複雜得多,所以雖然結論相似,但是Shen,Fishbach 和 Hsee 的這篇 "The Motivating-Uncertainty Effect: Uncertainty Increases Resource Investment in the Process of Reward Pursuit",進一步描述了人類生活世界裡的操作制約現況。

最簡單的,跟動物行為一樣的,人們如果面對的是不確定的獎勵,會更積極的完成手上的工作。而跟動物不同的,是人可以進一步告訴我們「為什麼」:「不確定的獎勵」這種「驚喜」形成一種正面的體驗,讓工作變得比較像是遊戲。

這樣的詮釋可以進一步的驗證:研究人員讓兩組人做線上競標的活動,一組人被要求專注在競標的結果,另一組人則是專注在競標的過程。結果注重過程的,在競標過程當中比較傾向冒險,也比較享受整個活動的經驗。

雖然說這是相對新的學術研究,但是在實際產業裡這個機制早已經被應用在激勵員工跟績效管理上。例如,很多的企業主喜歡用「低底薪、高獎金」這種薪酬制度,但是這些員工是不是真的有特別享受他們的工作呢?


[研究論文]Ayelet Fishbach and Christopher K. Hsee. The Motivating-Uncertainty Effect: Uncertainty Increases Resource Investment in the Process of Reward Pursuit.Journal of Consumer Research, February 2015

2015/02/28

[摘譯]新權力的樣貌

[原文] Understanding “New Power” | Harvard Business Review

[摘譯]
世界上的權力已經慢慢在移轉,越來越多的政治抗爭顯示出世界各國在治理上的危機,也不斷的有新創企業試圖顛覆既有的產業現況,然而面對這樣的變化,人們的反應要不就是賦予過度的浪漫想像,要不就是全然的忽視。

近年來熱門的話題,像是社群網路驅動了北非的民主革命,分享經濟改變了消費者對「擁有」的想法,3D列印即將改變製造產業,似乎勾勒出未來美好的科技烏托邦;但此同時,原有的大型企業卻是市佔越來越高,越賺越多。

兩種看似矛盾的現象,關鍵不在於科技是否改變了世界,而是昭示了一種新的權力樣貌的成型,而這種「新權力」驅動了一系列運作方式與過去不同的事件。

傳統的權力型態像是「貨幣」(currency),由少數人所擁有。一旦獲得,就會小心翼翼的保護,當權者擁有大量的「權力」可以花用和保存,它是封閉而且不易取得的,由「領導者」支配,可以下放(download),可以獲取。

新權力的形態更像是一種「流」(current),由很多來源所產生,它是開放的、參與式的,由「同儕」所支配。像是水流或電流一樣,新權力可以匯集(upload),可以散佈,而在「湧現」的時刻展現出最大的力量。這種新世代的權力,目的不在囤積,而在於引導(channel)。

在未來的若干年中,新舊權力的平衡,將會重新定義社會和商業的特徵。

依據英國哲學家羅素的定義,「權力」是一種「產生所想要結果的能力」,而新權力與舊權力達成這個效果的方法有所不同。

Jeremy Heimans 在 TED Talks 裡簡單的描述了「新權力」的樣貌。



分享與形塑(sharing and shaping),募資(funding),製作(producing),與共有(co-ownership),大抵是新權力運作模式的幾個階段。新權力的價值,包括去中心化的治理,協作,公開透明,與連結(affiliation)。

新權力即便看似美好,其運作也面臨著很大的挑戰。例如:它可以快速的匯聚極大的能量,但是因為去中心化,這股能量也很容易就這麼消散,而沒有成就任何事情。另外,一旦取得權力,而且聚焦在特定問題上,它也很可能搖身一變,成為舊權力的形態。

無論如何,這個「新權力」的獨特風貌,是值得關注和進一步深入了解的。

R1412B_B

[譯案]
1. 這是相對比較新的概念,很多用語一時想不到比較好的中文翻譯,故附上原文。
2. 原文對於新權力的模型有相當深入的探討,這裡只做了簡短的摘要,有興趣的讀者可以前往細讀。

2015/02/03

[BCI]關於腦波的一點迷思

我們這幾代的港臺華人,多少讀過幾本倪匡的小說,或是看過改編的電影。整體來說,倪大師的想像力的確是超越時代的,像是「後備」這本1981年出版的故事,講的就是近年來好幾部西方電影探討的,關於「培育複製人作為器官捐贈之用」的可能性和省思。但是,倪匡小說裡的某些描述,也讓我們對一些大腦的結構、功能和運作方式有所誤解。當中最大的迷思,就是關於「腦波」這件事情。


什麼是腦波?

現代科學所謂的腦波,指的是腦電圖,是頭顱上記錄到的微弱電位變化,而這些變化主要是由腦殼內的神經活動所造成的。所以,我們今天所謂的腦波,可以說是大腦各種活動在頭皮上形成的一種「影子」。

我們絕對可以從影子的變化來推測造成影子的物體的活動,因此我們也可以從腦波來推測大腦的實際活動,但是這種推測屬於「逆問題」(inverse problem),而所有的逆問題都面臨一樣的挑戰:「可能的解釋有無限多個」。例如,我們看到一隻狗的影子,可能是真的有一隻狗在後面,也可能是人用手勢裝出來的狗影,也可能是一隻狗的玩偶,或是狗的標本,還有可能一隻超級仿真的機器狗;透過仔細的觀察,或許我們可以排除其中幾種可能性,但是永遠沒辦法確認「真相就是這一個」。


腦波不等於想法,也不等於靈魂

讓我們回到標題說的迷思,倪匡小說裡常常把人的心智活動,或是所謂的「靈魂」,描述成「腦電波」,所以很多人,包括我自己,在還沒接觸神經科學的時候,都誤以為腦波技術可以完全的解讀人的「想法」。

事實上,時至今日,人的「靈魂」或「想法」究竟是以怎樣的形態存在,都是科學尚未有定論的問題,所以我們當然不能排除倪匡詮釋的可能性,但是至少有一點我們是很確定的:即便人的想法、意志、甚至靈魂真的是以「腦電波」的形式存在,那也不是今天我們看到的腦波科技所量測的那種腦電波。

那麼,現在的腦波科技可以做什麼?

現階段,可以商業化的「腦波科技」,主要透過學術研究過去所累積的資料,分辨幾個人腦的穩定狀態,例如「緊張」、「放鬆」、「注意力集中」等等。這樣的效果其實已經可以拿來做很多用途,但實際拿來從事生產操作則還有點距離;而透過這些狀態出現的先後順序和組合,的確可以延伸出一些傳遞資訊的方法,但是這是「人需要去學習」的操作方式,而非自然的腦活動狀態。

長遠來看,技術的演進或許可以讓推測的正確性越來越高,但是終究有個極限,因為腦波並不等同於大腦活動,而是大腦活動的影子。

如果只靠「腦波」,目前技術所能做到的的確很有限,但是身處物聯網和大數據的時代,我們很容易的可以用其他的資訊來源來提供情境脈絡,那麼我們可以從腦波判斷出的腦活動狀態,可能可以有很大幅的突破。然而,這些突破都還是有其天然的限制:腦波不等於想法,也不等於靈魂,所以「完整重現想法與感覺」這件事,可能還需要搭配其他科技才有辦法做到。

「完整重現」其實還有其他神經科學上的問題,不過已經超過這篇要討論的範圍,就此先打住。



2015/01/13

行動健康應用的寶庫:人類行動庫計畫

1990 年正式展開的「人類基因組計畫」(Human Genome Project),是個跨國的大型科學研究計畫,也為後續人類基因的研究奠定了良好的基礎。

2014年,一群德國的研發人員發起了「人類行動庫計畫」(Human Motion Project),旨在仿效人類基因組計畫,形成一個開放協作的科技平台,集結各種對人類「行動」的監測技術,作為健康醫療應用開發的基礎。

整個計畫的基礎,會建立在一套關鍵工具組和資料倉儲架構上,提供人類行動資料的收集、儲存、分析、和傳播架構,以及相關的演算法。

雖然計畫才剛起步,目前文獻庫裡已經有不少跟行走、跑步有關的研究,也有一些「疼痛」、「壓力」,和「緊急狀況偵測」的例子,如果後續可以引起更廣泛的回響,對於開發穿戴式設備、物聯網和行動健康應用的廠商來說應該是一大寶庫。


2015/01/06

[摘譯] 資料科學與幾個「分析」相關領域的比較

[原文] 16 analytic disciplines compared to data science - Data Science Central by Vincent Granville

[譯按]
資料科學(data science)集結了眾多傳統學科領域裡跟「資料」關係比較密切的子領域,儼然成為一個隨著巨資料(Big Data)而生的新興學門。 Vincent Granville 的這篇文章列舉了16個傳統領域,並且比較這些領域與目前大家試圖定義的資料科學有什麼異同。

[摘譯]
目前跟資料科學相關的職稱主要有:資料科學家、首席科學家、資深分析師、分析總監...等等,產業則分布的相當廣,但是主要集中在數位分析、搜尋技術、行銷、反詐騙、天文學、能源、健康醫療、社群網路、財經、鑑定、資訊安全、行動、通訊、天氣預測等等。

而資料科學相關的專案包括:大量資料的分類與分群、推薦引擎、模擬、統計評分系統的規則化、深層原因分析、自動投標系統、鑑定系統、外星探測和早期反恐...等等。這些專案有個很重要的元素是「自動化」,包含了機器之間的通訊,和不斷線持續運行的演算法。舉例來說,像是異常偵測、天氣預報、房價預測(Zillow)等等。

資料科學家與傳統的分析師之間最大的不同,在於「商業敏感度」與「領域專業」,這也是資料科學家容易成為成功創業家的特質。資料科學家的種類繁多,正如同資料科學本身就是一個橫越眾多領域的學門一般。許多資料科學家除了資料分析的專業的能力之外,都有著非常寬廣的技能與知識,這些人就是雇主們所找不到的那些獨角獸。

傳統負責聘僱的經理人,在沒有做足功課的情況下,都會傾向於偏好那些專精非常技術性技能的人才,而非那些具備綜合性技能,既有寬廣的商業嗅覺,又有深入的領域知識的人。稱呼這些人為「獨角獸」其實是不太正確的,因為這類人絕不稀少,很多知名的創投家都是這類人,他們常常從事顧問或高階經理人的職務。比較資淺的資料科學家則大多擅長單一的資料型態,懂得一些最熱門的技術,而且很容易找到相關的工作。

和資料科學有交集的學門主要包括:
  • 電腦科學(台灣大多屬於「資訊工程」學系)
  • 統計學
  • 機器學習與資料探勘
  • 作業研究
  • 商業智慧
以下是資料科學與幾個「資料分析」相關領域的介紹:
  • 機器學習(machine learning):電腦科學裡的一個熱門領域,擅長處理大量資料,跟資料探勘一樣專注在演算法的設計,但是更聚焦在實際營運用的演算法的開發,以及系統的自動化。
  • 資料探勘(data mining):設計演算法,目的主要是從相對大量、無結構的資料裡萃取知識。
  • 預測模型(predictive modeling):這本身並不是一個學門,而是在各個領域裡都有跟預測模型有關的專案,核心知識是統計學和統計模型。
  • 統計學(statistics):目前統計學大多跟調查研究有關,但是作為許多其他領域的核心,與機器學習、預測模型都有很深的淵源。
  • 工業統計(industrial statistics):通常是由非統計學背景的工程師進行諸多關於系統最佳化的統計分析,與傳統統計學相較,這個領域較偏向「作業研究」,應用在生產線的負載平衡和品質控管上。
  • 數學最佳化(mathematical optimization):用數學方法來處理商業上的最佳化問題,很多時候跟統計學者從事的工作和使用的工具都相同,只是在商業上有不同的名稱。
  • 精算科學(actuarial science):統計學當中偏重在保險上應用的子領域。
  • 高效能運算(HPC):高速計算本身並不算是個學門,但是因為牽涉到 Hadoop 和 Map-Reduce 等技術,在實務上與大數據息息相關。
  • 作業研究(operation research):大約20年前從統計學分離出來成為獨立的領域,但是基本上兩者就像雙胞胎,只是專注在商業決策的最佳化,核心能力依然是數值模擬與統計模型。
  • 六個標準差(six sigma):六標準差基本上是一種思維,一種商業哲學,而不是一個學門。這是多年前由摩托羅拉和奇異大力推廣的作法,應用在工程流程的最佳化和品質管控上,可以視為作業研究的簡化版。
  • 量化分析(quant):量化分析的人通常是在華爾街工作,專門解決像是高頻交易或是股市套利的數學問題。
  • 人工智能(artificial intelligence):與資料科學主要的交集在「型態辨識」(pattern recognition)和「自動化系統」。
  • 電腦科學(computer science):主要的交集有幾個,像是大數據的軟硬體架構,演算法和計算複雜度,網路拓譜學,密碼學,資料壓縮和隱私加密...等等。
  • 計量經濟學(econometrics):核心是統計學,但多年來已經自成一個獨立的學門,分析的資料多為時間序列,也跟作業研究有交集。
  • 資料工程(data engineering):主要是大型組織裡的軟體工程和架構師在從事這類工作,比較像是大數據軟硬體架構的應用面。
  • 商業智慧(business intelligence):主要聚焦在商業資料的萃取與呈現上,例如將商業數據設計成一目了然的儀表板(dashboard),和設計各種指標。使用者通常是 MBA 畢業生,大多是擔任分析師的工作。
  • 資料分析(data analysis):大約1995年起,商業統計就逐漸被稱為資料分析,包含的範圍很廣,像是異常偵測、廣告混合模型、屬性模型、銷售預測、零售策略最佳化、消費者區隔...等等。通常在大企業中,商業分析師是比較資淺的角色,知識範圍比較狹窄,也比較缺乏商業願景(與資料科學家相較)。
  • 商業分析(business analytics):跟資料分析類似,只是限定在商業問題上,通常是財金、行銷等背景出身。
[譯按]
呼~好長,已經省略很多細節了,有興趣請參考原文


2015/01/04

[Data analytics] 社群網路分析的盲點

source: KDnuggets
社群網路分析(Social Network Analysis, SNA,中文介紹)是隨著 Big Data 熱潮漸漸廣為人知的服務,主要是透過網絡分析、資訊萃取(Information Retrieval, IR)和自然語言處理(Natural Language Processing, NLP)相關的技術,分析網路上人與人的關聯性,以及對於某些主題討論的熱門程度與正負向態度。
當然,隨著技術的進展,未來可能可以提供更多樣的資訊,但是目前在市場上可以看到的 SNA 產品,大抵就是主打上面提到那些跟網路行銷比較相關的功能。

根據 KDnuggets報導,一篇刊登在 Science 上的研究Social media for large studies of behavior)指出,目前社群媒體分析的方法學是有偏頗的,在使用上需要注意會導致偏誤的結論。例如,某種社群平台上的使用者可能都有某種特色,導致分析的取樣有偏誤;平台的設計可能會導致某種訊息比較容易被看到;預設的分析方法可能不適用於所關心的主題...等等。

作者以 1948 年 11月3日的芝加哥論壇報頭條作為引子:當年芝加哥論壇報引進最新潮的「電報分析」來預測美國總統大選,在選舉開票全一天就先印好頭條:Harry Truman 當選,結果與開票結果相反,成了天大的笑話。

KDnuggets 摘出八點在從事 SNA 研究之前最好先確認的幾件事情:
  1. 量化平台本身的偏誤(平台設計、使用族群、平台使用特徵、平台儲存規定) 
  2. 量化「可取得資料」偏誤(平台提供的資料通常有過濾和限制,而非全部資料) 
  3. 量化目標族群跟跟分析對象的差異 
  4. 過濾並修正「非人類產生」的內容 
  5. 修正抽樣族群的誤差 
  6. 修正平台專屬的誤差(平台的過濾器、演算法所造成的誤差) 
  7. 如果是嘗試新的分析方法,記得用同一套資料跟傳統方法做比較 
  8. 如果是嘗試分析新的現象或演算法,要分析幾組不同的資料
個人雖然不是研究社群網路分析研究的,但前一陣子去參加一個資料相關的黑客松,就有一個活生生的例子。

政府每年會公布當年度有標案違約的廠商黑名單(三年內不得參與政府標案),有人就拿這個名單的公司名稱,直接對應過去這些公司所接過所有的標案金額,指稱每個政府單位被A了多少錢。這就像很多社群網路分析工具裡提供「指標」

後來有人補充說明,一家公司(例如精誠資訊,國內最大的資訊軟體廠商)可能接了政府1000個案子,結果有一個違約,就被列入黑名單,如果就此指稱另外999個案子都是A政府的前,並不是很合理的指控。這就是前面提到「平台演算法」設計上的失誤。

當前社群媒體分析很熱門,裡面有很多簡化的公式,提供可以迅速做參考的指標,如果要根據這些指標最進一步推論,最好對這些指標有深入的了解,以免做出錯誤的結論。